Периодическая потеря связи у юзеров
Периодическая потеря связи у юзеров
Ситуация такая (которая до сих пор не дает нам пустить абиллс в производство): Cisco NAS авторизует ADSL PPPoE клиентов через RADIUS, они получают динамический IP адрес от биллинга и инет трафик идет как обычно (т.е. не через тот же компьютер, на котором крутится абиллс). Все работает нормально, пользователи заходят и выходят (согласно таблице онлайнов), но через некоторое время некоторые пользователи начинают жаловаться, что у них ничего не открывается. Иногда перезагрузка их модема/винды помогает, иногда нет. Стоит отключить на Cisco RADIUS авторизацию - т.е. пускать не проверяя логин/пасс/мак, как и работает уже не один год, как все начинает работать и никаких жалоб у клиентов не бывает. Даже не знаю проблема в Абиллсе или Cisco, но склоняюсь к настройкам Cisco. Повторюсь что в самом начале все работает, а жалобы начинаются позже (примерно через день). В логах ничего подозрительного нет. Визуально тоже проблем не видно - все как обычно (юзеры заходят, выходят). Используется rlm_perl, пробовать с rauth/racct не тороплюсь т.к. у большинства авторизация во время жалоб других людей работает. Причем жалобы спонтанны: если человек не жаловался пока жаловался другой, то позже и он может пожаловаться. Кто нибудь может сталкивался с похожей проблемой? Заранее благодарю за любые идеи.
FreeBSD 7.0
Abills 0.4
Freeradius 2.0.5
Perl 5.8.8 (непотоковый)
FreeBSD 7.0
Abills 0.4
Freeradius 2.0.5
Perl 5.8.8 (непотоковый)
Вот еще от нашего нетворк админа. Релевантные части конфига Cisco 5300, с которым бывают указанные выше проблемы:
version 12.3
service timestamps debug datetime msec
service timestamps log datetime msec
no service password-encryption
!
hostname xxx
!
boot-start-marker
boot-end-marker
!
logging buffered 10000 debugging
enable secret xxxx
!
spe 1/0 2/9
firmware location system:/ucode/mica_port_firmware
!
!
resource-pool disable
clock timezone xxxx
clock summer-time xxxx recurring last Sun Mar 4:00 last Sun Oct 4:00
!
aaa new-model
!
!
aaa group server radius super-billing
server-private xxxx auth-port 1812 acct-port 1813 timeout 60 retransmit 50 key xxxxx
ip radius source-interface Loopback0
!
aaa authentication login default local
aaa authentication ppp blabla none
aaa authentication ppp billing group super-billing
aaa authorization exec default local
aaa authorization network blabla none
aaa authorization network billing group super-billing
aaa accounting delay-start
aaa accounting network billing start-stop group super-billing
aaa pod server auth-type any server-key xxxxx
aaa session-id common
ip subnet-zero
no ip domain lookup
ip name-server xxxxx
ip name-server xxxxx
!
ip cef
!
!
!
!
!
!
ip finger
!
!
!
bba-group pppoe global
virtual-template 1
!
bba-group pppoe super-billing
virtual-template 10
!
!
interface Loopback0
ip address xxxxx
no ip redirects
no ip unreachables
no ip proxy-arp
!
interface Ethernet0
no ip address
shutdown
!
interface Virtual-Template1
ip unnumbered Loopback0
ip access-group filter in
ip access-group filter out
no ip redirects
no ip unreachables
no ip proxy-arp
ip mtu 1492
peer default ip address pool blabla
ppp authentication pap blabla
ppp authorization blabla
!
interface Virtual-Template10
description Super-Billing
ip unnumbered Loopback0
ip access-group filter in
ip access-group filter out
no ip redirects
no ip unreachables
no ip proxy-arp
ip mtu 1492
ppp authentication pap chap billing
ppp authorization billing
ppp accounting billing
!
interface FastEthernet0
description dllams mgmt
ip address xxxxx
ip access-group dslam out
no ip redirects
no ip unreachables
no ip proxy-arp
duplex full
speed 100
no cdp enable
!
interface FastEthernet0.10
encapsulation dot1Q 10
ip access-group filter in
ip access-group filter out
no ip redirects
no ip unreachables
no ip proxy-arp
pppoe enable group global
no cdp enable
!
interface FastEthernet0.11
description pppoE users on dslam#2
encapsulation dot1Q 11
no ip redirects
no ip unreachables
no ip proxy-arp
pppoe enable group global
no cdp enable
!
interface FastEthernet0.12
description dslam#3
encapsulation dot1Q 12
no ip redirects
no ip unreachables
no ip proxy-arp
pppoe enable group global
no cdp enable
!
router ospf 1
router-id xxxxxx
log-adjacency-changes
summary-address xxxxxx
redistribute connected subnets
redistribute static subnets
network xxxxxxxx area 5
network xxxxxxxx area 5
network xxxxxxxx area 5
!
ip local pool 64_bit xxxx
ip classless
ip route xxxxxxx
no ip http server
no ip http secure-server
!
!
!
ip access-list standard dslam
permit xxx
permit xx
permit xxx
permit xxx
permit xxx
permit xxx
permit xxx
!
ip access-list extended filter
deny tcp any any range 135 139
deny tcp any any eq 445
deny udp any any range 135 netbios-ss
deny udp any any eq 445
permit ip any any
!
radius-server vsa send accounting
radius-server vsa send authentication
!
!
!
!
!
line con 0
line 1 240
line aux 0
line vty 0 4
!
ntp clock-period 17179766
ntp access-group peer 10
ntp server xx
!
end
дык для начала выяснить почему не открывается... tcpdump или нечто подобное в зубы и впрерёд... и если покажешь лог этого безобразия мож общими усилиями и починимно через некоторое время некоторые пользователи начинают жаловаться, что у них ничего не открывается.

ЗЫ: по симптомам очень похоже на переполнение таблицы трассировщика соединений (или как там оно на киске называется)
ЗЫ: по симптомам очень похоже на переполнение таблицы трассировщика соединений (или как там оно на киске называется)
P.S.: а может Cisco неправильно настроена для работы с абиллсом? Какие-то ненужные таймауты? Прошу набивших шишек цисководов натолкнуть нашего нетворк админа на решение.Стоит отключить на Cisco RADIUS авторизацию - т.е. пускать не проверяя логин/пасс/мак, как и работает уже не один год, как все начинает работать и никаких жалоб у клиентов не бывает.
ну на сколько я понял сама авторизация ведь проходит? и что значит "ничего не открывается"? это из серии "ничего не работает что делать"... icmp пакеты проходят? udp? tcp? если не проходят то какие не проходят и как не проходят... а так можно ещё 100 лет долбаться...Стоит отключить на Cisco RADIUS авторизацию
та какая разница что там включено что выключено, что трогается, и ваще киска это или какая другая животина? есть методы решения проблем связанных с прохождением трафика через транзитный рутер - их и надо применять... ты что никогда не сталкивался с тем что одни сервисы как-то косвенно могут влиять на другие? сначала нада выяснить что собсно происходит...
Ну что, есть у кого нибудь еще идеи? Желателен совет цисководов ранее столкнувшихся с такой же проблемой. Еще на заметку: проблема рано или поздно проявляет себя также при radiusd -X, а если верить доке, сервер с этим ключом запускается в одном процессе и непоточно, так что проблема тредов исключена. Что и подчеркивает, что проблема скорее всего вне биллинга или абиллса. Потому и так необходим совет цисководов.
Логично рассуждаете. Уже пытались мы такое забабахать с логами, включил наш нетворк гай логирование с киски на удаленный сислог по его словам всего что имело отношение к авторизации, но стоит проблеме начаться через день-два, как приходится срочно снимать авторизацию с радиуса на биллинге не успев продебагить идут запросы или нет. А постфактум листать логи бесполезно (там все нормально) - должно быть в реальном времени чтобы запечатлеть факт неприхода авторизации
Если оставить клиенты сбегают.

кстати... у тебя там случайно не такая же кака? 
